rl综述

清华联手上海 AILab！推理模型RL综述重磅发布，叩响超级智能大门

这篇论文标题是《ASurveyofReinforcementLearningforLargeReasoningModels》，专门梳理RL在大推理模型（LRM）里的最新进展。

在 2013 年，DeepMind 就展示过一个小实验：用 RL 训练的智能体，只凭屏幕上的像素和得分反馈，就能学会玩上世纪的街机游戏《打砖块》。几年后，AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号，超越了世界顶尖棋手，在围棋、国际象棋和